众IT巨头围猎,基因和云计算之间的长桥有多长?
关键词:云计算+基因大数据 痛点和场景
阅读时间:约6分钟
文/基因慧
4年前,谷歌推出Google Genomics,25美元/年存100G基因数据在云端。随后亚马逊、微软、英特尔等IT巨头发力“基因云”的布局。国内,近期筹备的生物信息云产业促进会的名单中,华为、BATJ等均在列(包括基因慧等产业大数据服务机构)。众IT巨头围猎基因领域,BT和IT孤岛的长桥仍在搭建。如何提升数据的“温度”,缩短价值链?怎样实现云端落地,建设中国特色的DT名片?是亟待解决的产业命题。
1从服务器到临床:如何提升数据温度
在近期“华为云中国行2018”的“云·基因”会议中,海普洛斯创始人许明炎博士谈到,从测序中心传送1T数据上仅需2小时,云端实现基因数据存储、分析一体化。
这意味着什么?
今天的测序成本约为十年前的1/100,使得基因大数据呈超摩尔定律增长,每年新增近100PB级基因数据,在传统生物信息方法基础上,投入HPC(高性能计算服务集群),基于GPU、FPGA等硬件加速,Hadoop,Spark等软件加速。
这些对IT工作者驾轻就熟的名词,对于遗传学家和临床医生而言可能如同天书——不要说给他们一个黑盒子,他们需要转化基因数据的价值,解读数据的生物信息,最终辅助临床决策。如果不了解数据产出和计算过程,在数据筛选、结果判断和定价上均有可能出现偏差。如果说给病人的是“黑盒子”式的医嘱和产品,给医生或许需要“白盒子”式的逻辑和方案。
回过头看,从基因大数据层面,精准医疗的路径需要经历数据采集、生物信息分析、数据验证、方案制定、 医疗服务、支付和保险、数据库积累等众多环节,最终实现从冰冷的服务器到有温度的临床服务。那如何提升在路径传递中的“数据温度”?
对于海普洛斯这样的肿瘤精准医疗企业,发起10万例中国人群绿肺计划和10万例肠康计划,以一年完成2万例的速度,不仅需要提高数据分析速度,也要确保结果交付的有效性、稳定性和可靠性。借助于华为云构建“海普云”,建立数据中心同时实现1T数据传输仅需2小时,这对于病床上急需诊断或治疗方案的病人及家属而言,节省了救命的时间。
对于需要借助基因数据决策的遗传学家和临床医生,能够从云端查看到从数据产出、原始数据过滤、初级分析和筛选过程,了解整体数据分析的逻辑和参数,并且在办公室、病房和外地都可以随时查看数据分析结果,这相对“黑盒子”增加了更多的数据模块化分析、可视化信息对称、在线协作的功能,即称作“白盒子”,被广大遗传学家和临床医生所欢迎。
2从数据到应用:如何缩短价值链?
“基因数据和医学影像一样,是生命健康领域最复杂也最庞大的数据,但相对结构化。基因测序技术的成熟带来基因数据爆发增长和应用的普及”,华为云深圳技术生态合作总监刘宇鹏在“华为云中国行2018”的“云·基因”会议中介绍道。
图,华为云举办的“云·基因”会议现场
从复杂而庞大的基因大数据到临床应用,需要将测序数据(或基因芯片、质谱、PCR等基因数据)转化为生物信息,进而分析遗传信息,然后得到临床决策信息,面对这样一个长价值链,如何缩短时间和降低人力物力成本呢?
刘宇鹏谈到:“云计算平台具有资源弹性、按需配置、量化共享、用户友好等特点,云计算和基因大数据结合,为精准医学提供落地BT+IT解决方案。”
以肿瘤基因检测企业海普洛斯为例,部署以多台NovaSeq(测序仪型号)为核心的测序中心,低成本打造了10P级存储方案。基于容器化技术将所有计算资源池化,连接公有云解决多点数据协作问题,同时将自主开发的开源软件部署在云端,通过优化算法来提高肿瘤NGS分析。一方面,通过其构建的基因云平台,使得肿瘤基因数据的存储和分析更加快捷;另一方面,对于临床应用来说,便于从头设计和管理癌症基因数据库,这对个体或者群体肿瘤标志物以及药物靶点的发现有重大加速作用。
华大基因云平台 BGI Online负责人金鑫在会上也谈到,基因云通过可视化分析流程编辑,实现软件模块的更换,兼顾效率的同时支持个性化操作,实验人员不需再为每个过程单独编写代码。这点对于缺乏生物信息分析人员的基因市场,尤其是临床科研团队,提供了简单易用且强大的工具,如同变形金刚的能量矩阵模块,从海量数据中吸取信息能量,而模块本身可以无缝传递给团队其他成员。
3从产品到方案:如何实现云端落地?
云计算落地到实际应用,除了分析模块化、流程可编辑、可视化分析外,最大的特色是弹性计算/存储。作为IT基础设施资源,云计算随用户业务实际使用而弹性伸缩。用户按需用多少资源,即按实际多少资源付费。
图,云计算的弹性计算/存储类似自来水厂
这种弹性计算的能力和按需计费的方式,和现代居民才使用的自来水很类似。以前,每家挖井产水,用不完的井水造成浪费;每家需自己维护或者接管道到厨房。到后来自来水厂统一产水,统一铺设管道和维护,每家用多少水交多少水费。云计算的弹性计算/存储类似自来水厂,切实地帮助用户避免大型服务器因闲置产生的成本,降低运维成本。华为云通过基于浏览器的云管理平台,以互联网线上自助服务的方式,灵活快捷为用户提供云计算IT基础设施服务。
借助云计算,对企业而言,无需提前预估并支付大量资金给不确定的IT基础设施资源,取而代之,能够在数分钟内开启成百上千的云计算资源,也能随时快速地缩减掉资源,资源真正地高效灵活配置。对医院而言,节省占地面积和成本之外,更重要的是无须再将时间耗费在等待数据分析冗长的生产链上,在医院门诊、病房都可以随时查看数据结果,为挽救生命争取了大量宝贵时间。
图,华为云高性能计算架构师 任冠楠
令大多数用户担心的一个问题,是基因数据的安全性。关于这点,华为云高性能计算架构师任冠楠谈到,华为云提供端到端基因测序行业解决方案,从样本到生物信息分析整个流程都能在云上完成,基因数据上传云端之后三副本备份,同时加上区块链技术防止被篡改。基因行业正处在爆发增长的阶段,需要有认证、监管及可靠性保证,这些都可以借助IT技术解决。
4从商业到行业:如何建设DT名片
自“十二五”以来,国家对生物技术领域投入累计达到602.65亿元,我国生物产业复合增长率达到15%以上。近两年,国家将生物技术列入战略发展新高度。科技部在2017年《“十三五”生物技术创新专项规划》中提出,到2020年,生物技术产业在GDP中的比重将超过4%。2018年初,《国家生物技术发展战略纲要》正式进入编制,成为除人工智能之外第二个技术类国家发展战略纲要。
迎着政策春风,以华大基因、海普洛斯为代表的BT(生物技术)企业,以华为为代表的IT(信息技术)产业,双方相互赋能,构建类似基因+云平台构建基因大数据体系,在创新生物技术驱动的基础上,又借助新一代信息技术加速发展。而中国拥有着大量人口和丰富生物资源,以及创新创业的社会、经济环境。天时地利的条件,将推动IT和BT的深度融合,构建成DT(大数据)体系和产业。
在DT方面,除了IT基础架构和软件平台对于BT大数据的相互赋能之外,人工智能的深度学习等算法,从理论上可以对无参考数据集的基因数据进行分析,从表型以及人群特点进行智能聚类和个体化差异分析。这样避免依赖需要长期建立的中国人基因参考数据集。此外,基于硬件加速,可以缓解PB级数据的计算和存储压力,提高从数据到应用的价值链效率,北京峰科计算技术有限公司的业务发展经理李东在会上提到,简化并缩短了FPGA加速的开发周期,管理异构计算机群中的加速器,分析流程显著加速3-5倍。
回到开头,为何各大IT和互联网巨头布局基因大数据,部分获得亿元级别的头部基因企业也得益于大数据的优势?我们可以看到,互联网改变了人类社会的生产关系,而大数据将改变生产力,成为人类社会体系的重要一环,除了衣食住行,未来将集合基因、微生物组、饮食作息和环境等生命大数据,指导生产、生活和社会的每一个环节,推动我们走进生命时代。这其中得益于BT和IT的双动能和双向赋能,也得益于在全球地缘政治的形势下,中国在结合人群大数据资源优势和中小企业资源上,建设DT名片,有望走在智能化生命时代的前列。
未来已来,生活将不在别处,在云端。
▼ 点击阅读原文,直达YourMap产业地图